
# 1 找到爬取的目标
# https://www.dushu.com/lianzai/1199.html

# 2 用什么技术？urllib requests 正则re
import requests
import re

# 3 发送请求，可能会需要参数？比如header、user-agent、……
headers={"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Edg/127.0.0.0"}
response=requests.get("https://www.dushu.com/lianzai/1199.html",headers=headers)

# 4 处理响应的结果
# print(response.text)

# 5 使用正则表达式过滤出我们想要的信息，最后保存为1个txt文件
# 使用re正则表达式模块的compile方法创建正则表达式，采用re.S（点任意匹配模式）
pattern = re.compile('<li.*? class="book-info">.*?<h3><a.*?>(.*?)</a></h3><p>(.*?)</p>',
                     re.S)
# 调用re.findall方法通过正则表达式爬取书籍信息
items = re.findall(pattern, response.text)
print(items)